sbu

Data Mining Course - Project #2

Professors:
Dr. Farahani, Dr. Kheradpishe


Ali Nikkhah - 99422197

March 2021

Analyzing International football results from 1872 to 2020

Content

This dataset includes 42,082 results of international football matches starting from the very first official match in 1972 up to 2019. The matches range from FIFA World Cup to FIFI Wild Cup to regular friendly matches. The matches are strictly men's full internationals and the data does not include Olympic Games or matches where at least one of the teams was the nation's B-team, U-23 or a league select team.

results.csv includes the following columns:

Note on team and country names: For home and away teams the current name of the team has been used. For example, when in 1882 a team who called themselves Ireland played against England, in this dataset, it is called Northern Ireland because the current team of Northern Ireland is the successor of the 1882 Ireland team. This is done so it is easier to track the history and statistics of teams.

For country names, the name of the country at the time of the match is used. So when Ghana played in Accra, Gold Coast in the 1950s, even though the names of the home team and the country don't match, it was a home match for Ghana. This is indicated by the neutral column, which says FALSE for those matches, meaning it was not at a neutral venue.

Acknowledgements

The data is gathered from several sources including but not limited to Wikipedia, fifa.com, rsssf.com and individual football associations' websites.

Inspiration

Some directions to take when exploring the data:

The world's your oyster, my friend.

Source: https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017

Working with data

در ابتدا داده را بارگذاری کرده و ستون ها و ویژگی های آن را برسی می‌کنیم.
از ۴۲۰۸۲ مسابقه ۱۷۱۸۹ آن دوستانه بوده است یعنی تقریبا ٪۴۰

از آنجایی که مسابقات دوستانه ملاک خوبی برای ارزیابی نیستند از آنها صرف نظر می‌کنیم و مسابقات رسمی را معیار قرار می‌دهیم.

اما بعد انجام تحلیل می‌توانیم با استفاده از داده های بازی های دوستانه مقایسه هایی را انجام دهیم.
قبل از تحلیل بازی های رسمی میتوان تعداد گل های زده شده در هر بازی دوستانه و رسمی را برسی کرد.
همانطور که مشاهده می‌کنید میانگین تعداد گل در مسابقات دوستانه از رسمی کمتر است.
همانطور که مشاهده می‌کنید در کمال تعجب میانگین تعداد گل در مسابقات دوستانه از رسمی کمتر است. این بر خلاف انتظار است چرا که بازی های دوستانه از رقابت کمتر و سرگرمی بیشتری برخوردار هستند.

Main Analytics

حال به برسی هر ستون یا ویژگی می‌پردازیم.

date

از آنجایی که این دیتاست شامل بازی های بین المللی در بازه ۱۴۸ ساله است، می‌توانیم داده را بر اساس بازه زمانی تقسیم کنیم و مقایسه‌هایی بین دهه‌های مختلف انجام دهیم.

home_team and away_team

می‌توانیم بفمیم کدام تیم بیشترین بازی‌ها را انجام داده است و آیا ارتباطی بین موفقیت و قهرمانی وجود دارد؟

home_score and away_score

می‌توانیم میانگین، بیشترین و کمترین را برای هر یک برسی کنیم.

tournament

تا اینجا در مورد بازی‌های دوستانه اطلاعاتی بدست آوردیم(تقریبا ٪۴۰ بازی‌ها دوستانه بودند)، در مورد بقیه بازی ها که رسمی هستند هم ۱۱۱ تورنمت مختلف وجود دارد که جام جهانی فیفا بیشترین تعداد مسابقات را دارد.

city and country

می‌توانیم بفمیم کدام کشورها بیشترین میزبانی را داشته اند که کشور مالزی و شهر کوالالامپور دارای بیشترین تعداد است اما میتوان اطلاعات بیشتری هم بدست آورد.

neutral

حدود ۹۰۰۰ بازی وجود دارد که در مکانی بیطرف برگزار شده‌اند! بیشتر این بازی‌ها مربوط به جام جهانی فیفا، اروپا و کوپا آمریکا است اما نه همه آن.

1. Who is the best team of all time?

همانطور که می‌بینید ۵۳۸۸ بازی از ۲۴۸۹۳ بازی نتیجه مساوی داشته‌اند. همچنین انگلستان بیشترین تعداد برد را داشته است، اما بهتر است تعداد کل بازی ها را هم برسی کنیم که نرخ برد را هم بدست آوریم برای این کار فریم داده زیر را ایجاد می‌کنیم.

Detecting Total Number of Games Played

Detecting Wins and Loses

مشکلی که وجود دارد این است که تیم هایی با فقط ۲ بازی رسمی هم وجود دارند که این باعث خطا در نرخ بردن می‌شود، برای جلوگیری از این می‌توانیم فقط تیم هایی که حداقل ۱۰۰ بازی رسمی داشته اند را فیلتر کنیم و بر اساس نرخ برد مرتب کنیم.
با نگاه به نمودار میله‌ای بالا میتوان نتیجه گیری هایی انجام داد.
اولا در فوتبال بهترین تیم ها تیم هایی هستند که نه تنها در طول سال ها از نظر میانگین نرخ برد و نتیجه بهتر بوده‌اند، بلکه بدون توجه به سایر آمارها جام های بزرگ را تصاحب کرده‌اند.
حال لیست برندگان جام های مختلف را تجزیه و تحلیل کرده و بر اساس این دو عامل نتیجه گیری می‌کنیم.

EURO

WORLD CUP

COPA AMERICA

بنابراین با در نظر گرفتن این داده ها ترکیب زیر را خواهیم داشت.
با توجه به داده های بالا باید تیم های هلند، روسیه، انگلستان و چک را کنار بگذاریم زیراکه برد یک جام صرفا برای بهترین تیم بودن کافی نیست. پس بین ۵ تیم باقیمانده باید انتخاب کنیم.
به راحتی می‌توان گفت که با توجه به تعداد جام و نرخ بازی به برد بهترین تیم آلمان یا برزیل است.
انتخاب بین این دو کمی دشوار است اما از آنجایی که جام کوپا آمریکا کلاس پایین تری نسبت به جام یورو دارد، تیم آلمان امتیاز بیشتری می‌گیرد.
همچنین با مقایسه آمار بین این دو تیم داریم.
آمار وضعیت تساوی را نشان می‌دهد
نکته جالب، اینکه تیمی که بیشترین تعداد برد را داشته است انگلستان است با ۴۳۰ برد!
حال باز هم می‌توانیم جلوتر برویم و ستون های بیشتری را معیار قرار دهیم البته که همه اینها بر اساس نرخ بازی به برد خواهد بود.

Finalizing the table with Goals and Points

حال ۴ دیتا فریم جدید از طریق groupby ایجاد می‌کنیم
سپس ۴ جدول را ادغام می‌کنیم(outer join) و بعد از آن به راحتی ۴ ستون خواهیم داشت که تعداد گل ها و تفاضل آنهارا نشان می‌دهند.
پس انگلستان نه تنها بیشترین تعداد گل را دارد، بلکه تیمی است که بیشترین تعداد امتیاز و تفاضل گل را داشته است.
حال بیایید فرمولی را تعریف کنیم که امتیاز هر تیم را محاسبه کند و سپس ستونهای "امتیاز" و "امتیازات در هر بازی" را اضافه کند. سپس جدول را بر اساس ستون "امتیازات در هر بازی" مرتب می‌کنیم.
با نگاهی به این جدول جدید که بر اساس امتیاز در هر بازی مرتب شده است و همچنین جام های مهم را در نظر می گیریم، یک بار دیگر می توان 3 مکان زیر را به وضوح تشخیص داد.
  1. Germany, Brazil
  2. Spain, Italy, France
  3. Netherlands, England
بله، هر 3 مکان به اشتراک گذاشته شده است، زیرا انتخاب بین آنها واقعاً اختیاری است، اما تفاوت بین هر گروه به اندازه کافی مشخص است تا آنها را در گروه ها قرار دهد.

حقایق جالب

- انگلستان بیشترین بازی رسمی را انجام داده است و بعد از آن برزیل
- انگلستان بیشترین گل را در مسابقات رسمی به ثمر رسانده است و بعد از آن برزیل.
- انگلستان بهترین اختلاف گل را در تمام دوران دارد و بعد از آن برزیل.
- هلند را می‌توان بد شانس ترین تیم دانست، از آنجاییکه همیشه از نظر نسبت بازی به برد، امتیاز در هر بازی و تفاضل گل در بالای جدول بوده اما موفق به کسب جام نشده است.
- حتی اگر فوتبال 148 سال پیش ظهور کرده باشد، ۷۱ درصد از کل مسابقات در ۳۴ سال گذشته برگزار شده است و تنها ۶ درصد از تمام مسابقات در ۸۵ سال اول (۱۸۷۲-۱۹۵۷) برگزار شده است.

Data Visualizations